4.1 模型评估
- 模型指标:
- 不同多分类任务有不同指标:图片分类用准确度衡量,目标检测用MAP衡量,文字生成用BLEU衡量
- 二分类问题的衡量指标(拿广告举例,广告是个二分类问题,假设一个广告点击率大于一个值的时候是正类,反之是负类):
- accuracy(主要看这个)
- precision
- recall
- F1

- AUC是一个商业的衡量指标,适用于一些部署的例子
- AUC是ROC曲线围成的面积,ROC中的曲线上的点代表每个不同的值(这个值决定哪些是正类哪些是负类)
- 当AUC=1表示模型完全可以预测正负样本
- 当AUC>0.5表示模型可以一部分预测
- 当AUC=0.5表示模型失去了预测能力
- 当AUC=0表示模型将正负样本完全预测反了
- 不能只从AUC的角度考虑新模型能否部署上线(AUC只能看出区分度),还需要考虑CTR等商业指标的因素,如果CTR变低了,会导致更少的广告展示出来,